2.3 소프트웨어 2.0: 로봇 프로그래밍의 재정의
인공지능(AI)과 로봇 공학의 융합은 단순한 기술적 기능의 확장을 넘어, 우리가 기계를 프로그래밍하고 제어하는 방식에 대한 근본적인 철학적, 방법론적 전환을 요구하고 있다. 수십 년간 로봇 공학을 지배해 온 명시적이고 규칙 기반의 접근 방식, 즉 ’소프트웨어 1.0(Software 1.0)’은 이제 비정형 환경(Unstructured Environment)의 복잡성을 처리하는 데 있어 그 한계를 드러내고 있다. 이에 대한 대안으로, 안드레이 카패시(Andrej Karpathy)가 제창한 ‘소프트웨어 2.0(Software 2.0)’ 개념은 신경망(Neural Networks)의 가중치(Weights)를 통해 데이터로부터 로봇의 행동을 학습시키는 새로운 패러다임을 제시한다.1 본 장에서는 로봇 프로그래밍의 역사적 진화 과정을 시작으로, 소프트웨어 2.0이 로봇의 인지(Perception), 계획(Planning), 제어(Control) 아키텍처를 어떻게 재정의하고 있는지 심층적으로 분석한다. 또한, 데이터 엔진(Data Engine)을 통한 개발 라이프사이클의 변화, 종단간 학습(End-to-End Learning)의 부상, 그리고 최신 로봇 파운데이션 모델(Robot Foundation Models)의 사례를 통해 미래 로봇 소프트웨어의 청사진을 그려본다.
1. 복잡성의 위기와 패러다임의 전환
로봇 공학은 본질적으로 물리적 세계의 불확실성(Uncertainty)과 싸우는 학문이다. 공장의 조립 라인과 같이 통제된 환경에서는 사전에 정의된 좌표와 규칙만으로도 높은 수준의 자동화를 달성할 수 있었다. 그러나 가정, 물류 창고, 도로와 같은 개방형 환경(Open World)은 무한에 가까운 변수를 내포하고 있으며, 이는 기존 프로그래밍 방식에 심각한 도전을 제기한다.
1.1 소프트웨어 1.0: 명시적 명령의 한계
전통적인 로봇 소프트웨어 개발 방식, 즉 소프트웨어 1.0은 프로그래머가 C++, Python 등의 언어를 사용하여 로봇이 수행해야 할 모든 동작과 판단 기준을 명시적으로 코딩하는 것을 의미한다.2 이 접근 방식은 문제를 더 작은 단위로 분해하고 정복하는 ‘분할 정복(Divide and Conquer)’ 전략에 기반을 둔다. 전형적인 로봇 소프트웨어 스택은 다음과 같은 모듈식 파이프라인(Modular Pipeline)으로 구성된다.
- 인지(Perception): 카메라나 라이다(LiDAR) 센서 데이터를 받아 노이즈를 제거하고, 특징(Feature)을 추출하여 주변 환경의 상태(State)를 추정한다. 예를 들어, Canny Edge Detector를 사용하여 물체의 경계선을 찾거나, 칼만 필터(Kalman Filter)를 사용하여 로봇의 위치를 추정한다.4
- 계획(Planning): 추정된 상태를 바탕으로 목표 지점까지의 경로를 생성하거나 작업 순서를 결정한다. A* 알고리즘이나 RRT(Rapidly-exploring Random Tree)와 같은 탐색 알고리즘이 주로 사용된다.3
- 제어(Control): 계획된 경로를 추종하기 위해 모터에 전달할 토크(Torque)나 속도 명령을 계산한다. PID 제어기나 MPC(Model Predictive Control)와 같은 피드백 제어 이론이 적용된다.5
이러한 모듈식 접근은 각 구성 요소를 독립적으로 개발하고 디버깅할 수 있다는 장점이 있어 오랫동안 산업 표준으로 자리 잡았다. 그러나 로봇이 마주하는 환경이 복잡해질수록 소프트웨어 1.0은 ’차원의 저주(Curse of Dimensionality)’와 ’취약성(Brittleness)’이라는 두 가지 치명적인 문제에 직면하게 된다.6
첫째, 차원의 저주는 고차원의 센서 데이터를 저차원의 상태로 압축하는 과정에서 발생한다. 로봇이 “설거지를 하라“는 명령을 수행하기 위해서는 컵의 위치, 모양, 재질, 오염 정도, 수도꼭지의 위치, 물의 흐름 등 수많은 변수를 고려해야 한다. 소프트웨어 1.0에서는 개발자가 이 모든 변수를 수동으로 정의하고 특징 벡터(Feature Vector)를 설계해야 한다.8 그러나 실제 세계의 변동성은 인간이 수작업으로 코딩할 수 있는 범위를 훨씬 넘어선다. 조명의 미세한 변화, 물체의 겹침(Occlusion), 예상치 못한 장애물의 등장 등은 기존 알고리즘의 실패를 초래한다.
둘째, 취약성은 모듈 간의 상호 의존성에서 비롯된다. 인지 모듈에서의 작은 오차(예: 컵의 위치를 1cm 잘못 추정)는 계획 모듈의 잘못된 경로 생성으로 이어지고, 제어 모듈에서는 이를 보정하기 위해 과도한 움직임을 생성하여 결국 컵을 떨어뜨리는 결과를 낳는다. 이를 ’에러 전파(Error Propagation)’라 하며, 각 모듈이 최적으로 설계되었다 하더라도 전체 시스템의 최적성을 보장하지 못하는 원인이 된다.4
1.2 소프트웨어 2.0: 데이터 기반의 함수 근사
안드레이 카패시는 이러한 한계를 극복하기 위해 소프트웨어 2.0이라는 개념을 제안했다. 소프트웨어 2.0은 로봇의 동작을 명시적인 코드로 작성하는 대신, 원하는 동작(입출력 쌍)을 정의한 데이터셋을 구축하고, 신경망이라는 범용 함수 근사기(Universal Function Approximator)를 사용하여 그 동작을 학습시키는 방식이다.1
소프트웨어 1.0과 2.0의 근본적인 차이는 프로그램 공간(Program Space)의 탐색 방식에 있다.
- 소프트웨어 1.0: 프로그래머는 자신의 논리와 직관에 의존하여 프로그램 공간의 단일 지점(특정 알고리즘과 파라미터)을 직접 선택한다. 예를 들어, 보행 로봇의 다리 관절을 제어하기 위해 특정 수식과
if-else조건을 하드코딩한다. 이는 탐색 범위가 매우 좁고, 인간의 인지 능력에 제한된다. - 소프트웨어 2.0: 프로그래머는 신경망 아키텍처라는 프로그램의 ’뼈대(Skeleton)’만을 정의한다. 이 뼈대는 수백만 개에서 수십억 개의 가중치(Parameter)로 구성된 거대한 검색 공간을 형성한다. 그리고 경사 하강법(Gradient Descent)과 같은 최적화 알고리즘을 사용하여, 주어진 데이터셋(목표 동작)을 가장 잘 만족시키는 가중치 조합을 자동으로 찾아낸다.1
이 관점에서 딥러닝(Deep Learning) 학습 과정은 일종의 컴파일(Compilation) 과정으로 해석될 수 있다. 데이터셋은 소스 코드(Source Code)가 되고, 학습 알고리즘은 컴파일러가 되어 실행 가능한 신경망(Binary)을 생성한다.1 로봇 엔지니어의 역할은 이제 복잡한 제어 로직을 작성하는 것에서, 양질의 데이터를 수집하고 정제하며 신경망 구조를 설계하는 것으로 이동한다.
| 비교 차원 | 소프트웨어 1.0 (Classical Robotics) | 소프트웨어 2.0 (AI Robotics) |
|---|---|---|
| 핵심 자산 | 알고리즘, 명시적 코드 (C++, Python) | 데이터셋 (이미지, 궤적, 언어 명령) |
| 개발자 역할 | 로직 설계자, 규칙 작성자 | 데이터 큐레이터, 모델 아키텍트 |
| 문제 해결 방식 | 분할 정복 (모듈화), 수학적 모델링 | 종단간 학습 (End-to-End), 데이터 피팅 |
| 적응성 | 낮음 (새로운 상황에 대해 코드 수정 필요) | 높음 (데이터 추가 학습으로 해결 가능) |
| 성능 최적화 | 알고리즘 튜닝 (비효율적) | 데이터 추가 및 모델 크기 증대 (확장성 높음) |
| 주요 한계 | 비정형 환경에서의 취약성, 복잡성 관리 불가 | 해석 가능성 부족, 데이터 의존성, 안전성 검증 난해 |
이러한 패러다임의 전환은 단순히 기술적인 우위를 넘어, 로봇 개발의 속도와 경제성을 근본적으로 변화시키고 있다. 예를 들어, 기존의 컴퓨터 비전 알고리즘을 2배 빠르게 만들기 위해서는 수개월의 최적화 작업이 필요했지만, 소프트웨어 2.0에서는 신경망 채널의 수를 절반으로 줄이고 재학습시키는 것만으로 즉각적인 속도 향상을 얻을 수 있다.1
2. 데이터 엔진: 새로운 개발 방법론
소프트웨어 2.0 시대의 로봇 개발은 코드를 작성하는 것이 아니라 ’데이터 엔진(Data Engine)’을 구축하고 운영하는 과정으로 정의된다. 데이터 엔진은 로봇이 운영되는 실제 환경에서 데이터를 수집하고, 이를 학습에 활용하여 모델을 개선한 뒤, 다시 배포하여 더 어려운 데이터를 수집하는 선순환 구조를 의미한다.11 이는 테슬라(Tesla)의 오토파일럿 팀에 의해 널리 알려진 개념으로, 현재 자율주행을 넘어 휴머노이드 로봇 및 물류 로봇 분야의 표준 개발 방법론으로 자리 잡고 있다.
2.1 데이터 플라이휠(Data Flywheel)의 순환 구조
데이터 엔진의 핵심은 지속적인 개선 루프(Loop)를 형성하는 것이다. 이 루프가 원활하게 작동할 때, 시스템은 ’데이터 플라이휠 효과’를 통해 시간이 지날수록 기하급수적으로 똑똑해진다.13
- 초기 모델 배포 및 쉐도우 모드(Shadow Mode): 개발 초기 단계의 모델이나 업데이트된 모델을 로봇 하드웨어에 배포한다. 안전이 중요한 로봇 시스템에서는 즉시 제어 권한을 주지 않고 ’쉐도우 모드’로 실행한다. 이 모드에서 모델은 센서 입력을 받아 동작을 예측하지만, 실제 제어는 기존의 안전한 알고리즘이나 인간 조작자가 수행한다. 모델의 예측과 실제 행동 간의 차이는 기록되어 분석된다.11
- 능동적 데이터 마이닝(Active Data Mining): 모든 데이터를 수집하는 것은 저장 공간과 통신 대역폭 측면에서 비효율적이다. 따라서 데이터 엔진은 모델이 헷갈려하거나(Low Confidence), 실패한 경우(예: 인간의 개입 발생, 충돌 위기) 등 학습 가치가 높은 ’엣지 케이스(Edge Cases)’만을 선별하여 클라우드로 전송한다.12 이는 희소한 데이터를 효율적으로 수집하여 데이터 불균형(Data Imbalance) 문제를 해결하는 핵심 메커니즘이다.
- 데이터 라벨링 및 큐레이션(Labeling & Curation): 수집된 원시 데이터(Raw Data)는 학습 가능한 형태가 되기 위해 정답(Ground Truth) 라벨이 필요하다. 과거에는 인간 라벨러가 일일이 작업했으나, 최근에는 ‘오토 라벨링(Auto-Labeling)’ 기술이 도입되고 있다. 예를 들어, 테슬라는 주행 영상을 클라우드의 거대 모델로 분석하여 3D 공간 정보를 자동으로 재구성하고 라벨링한다.16 또한, Scale AI나 Snorkel과 같은 플랫폼을 활용하여 데이터의 품질을 관리하고 노이즈를 제거하는 큐레이션 작업이 수행된다.17
- 모델 재학습 및 OTA 배포: 정제된 엣지 케이스 데이터는 기존 학습 데이터셋에 병합되어 모델을 재학습시킨다. 성능이 향상된 모델은 OTA(Over-The-Air) 업데이트를 통해 전체 로봇 군집(Fleet)에 배포되며, 이제 로봇은 이전에 실패했던 상황을 처리할 수 있게 된다.19
2.2 합성 데이터와 시뮬레이션의 역할 확장
물리적 세계에서 데이터를 수집하는 것은 여전히 비용과 위험이 따른다. 특히 로봇이 파손될 수 있는 충돌 상황이나 극도로 희귀한 사고 시나리오는 실제 환경에서 데이터를 얻기 불가능에 가깝다. 이에 대한 해결책으로 시뮬레이션 기반의 합성 데이터(Synthetic Data) 활용이 급증하고 있다.20
NVIDIA의 Isaac Sim이나 Genesis와 같은 물리 시뮬레이션 플랫폼은 생성형 AI(Generative AI) 기술과 결합하여, 텍스트 명령만으로 다양한 조명, 날씨, 물체 배치를 가진 가상 환경을 생성한다.21 여기서 생성된 데이터는 완벽한 라벨(Perfect Labels)을 가지고 있어 라벨링 비용이 들지 않으며, Sim-to-Real(시뮬레이션에서 학습한 모델을 현실에 적용) 기술의 발전으로 현실 세계에서의 성능을 보장한다. 예를 들어, MIT CSAIL의 ‘PhysicsGen’ 프로젝트는 소수의 VR 시범 데이터를 기반으로 수천 개의 시뮬레이션 시나리오를 생성하여 로봇의 범용성을 향상시켰다.20
2.3 사례 연구: 테슬라 오토파일럿과 옵티머스
테슬라는 데이터 엔진을 가장 성공적으로 구현한 기업으로 꼽힌다. 전 세계 수백만 대의 차량에서 수집되는 주행 데이터는 강력한 경쟁 우위가 된다. 테슬라는 라이다(LiDAR) 없이 카메라 영상만으로 3D 공간을 인식하는 ’Occupancy Network’를 개발하기 위해, 차량이 주행하며 수집한 비디오 클립을 클라우드 상에서 오프라인으로 재구성하여 학습 데이터로 활용했다.12
이러한 방법론은 휴머노이드 로봇 ‘옵티머스(Optimus)’ 개발에도 그대로 적용되고 있다. 옵티머스는 초기에는 인간이 VR 수트를 입고 수행한 동작을 모방 학습(Imitation Learning)하지만, 이후에는 스스로 환경과 상호작용하며 수집한 데이터를 통해 동작을 미세 조정한다.24 테슬라의 FSD(Full Self-Driving) 칩과 데이터 파이프라인은 로봇이 시각 정보를 통해 복잡한 공간을 탐색하고 작업을 수행하는 데 필수적인 ‘두뇌’ 역할을 한다.
3. 종단간 학습(End-to-End Learning): 모듈의 붕괴
소프트웨어 2.0의 진화는 모듈식 구조를 허물고, 입력(센서)부터 출력(액추에이터)까지를 하나의 거대한 신경망으로 연결하는 **종단간 학습(End-to-End Learning)**으로 나아가고 있다.26 이는 로봇 제어의 복잡성을 획기적으로 낮추는 동시에 성능을 극대화하려는 시도이다.
3.1 픽셀에서 토크까지 (Pixels-to-Torque)
전통적인 로봇 제어 파이프라인(Perception-Planning-Control)은 각 단계마다 정보의 손실이 발생한다. 예를 들어, 인식 모듈이 “앞에 장애물이 있다“는 정보만 전달하고 그 장애물의 표면 재질이나 미세한 움직임을 전달하지 않는다면, 제어 모듈은 최적의 회피 기동을 할 수 없다.
종단간 학습은 이러한 중간 단계의 명시적 표현(Intermediate Representation)을 제거한다. 대신, 로봇의 카메라 이미지(Raw Pixels)와 현재 관절 상태(Proprioception)를 신경망의 입력으로 넣고, 관절 모터의 토크나 위치 명령을 출력으로 직접 내뱉는다.8 이 방식은 신경망이 작업 수행에 필요한 특징을 스스로 학습하게 만든다.
- 다중 모달 융합(Multimodal Fusion): 시각 정보뿐만 아니라 촉각(Tactile), 청각(Audio), 힘(Force) 센서 데이터가 신경망 내부에서 자연스럽게 융합된다.28 기존 방식에서는 각 센서 데이터를 융합하기 위해 복잡한 칼만 필터나 베이지안 네트워크를 설계해야 했으나, 종단간 모델은 데이터 간의 상관관계를 스스로 학습하여 더 강건한(Robust) 인식을 가능하게 한다.
- Visuomotor Policy: 시각(Vision)과 운동(Motor) 제어가 결합된 정책망(Policy Network)은 로봇이 “본 대로 행동하는” 직관적인 제어를 가능하게 한다. 이는 특히 천, 케이블, 액체와 같이 형상이 변하는 변형 물체(Deformable Objects)를 조작할 때 기존의 강체 역학 기반 제어보다 훨씬 뛰어난 성능을 보인다.4
3.2 확산 모델(Diffusion Models)과 행동 생성
최근에는 생성형 AI에서 사용되는 확산 모델(Diffusion Models)이 로봇의 행동 생성에 적용되고 있다. ’Diffusion Policy’라 불리는 이 기술은 로봇의 행동을 연속적인 노이즈 제거 과정으로 모델링한다. 이는 복잡하고 다봉적인(Multi-modal) 행동 분포를 효과적으로 학습할 수 있어, 같은 상황에서도 다양한 해결책(예: 장애물 왼쪽으로 피하기 또는 오른쪽으로 피하기)을 자연스럽게 생성할 수 있다.4 Physical Intelligence와 같은 기업은 이러한 기술을 활용하여 로봇이 매우 정교하고 민첩한 동작(Dexterous Manipulation)을 수행하도록 학습시키고 있다.
4. 로봇 파운데이션 모델과 일반화(Generalization)
소프트웨어 2.0이 개별적인 작업(Specific Task)을 해결하는 것을 넘어, 범용적인 작업(General Purpose)을 수행할 수 있는 단계로 진입하면서 **로봇 파운데이션 모델(Robot Foundation Models)**의 개념이 등장했다. 이는 마치 LLM(Large Language Model)이 다양한 언어 작업을 수행하듯, 하나의 거대 모델이 다양한 로봇 하드웨어와 작업 환경을 아우르는 능력을 갖추는 것을 목표로 한다.
4.1 Cross-Embodiment: 형태를 초월한 지능
기존 로봇 소프트웨어는 하드웨어에 종속적이었다. 4축 로봇 팔을 위해 작성된 코드는 7축 로봇 팔이나 휴머노이드 로봇에 사용할 수 없었다. 그러나 구글 딥마인드(Google DeepMind)의 RT-X(Robotics Transformer-X) 프로젝트는 이러한 제약을 뛰어넘었다.
RT-X는 전 세계 21개 기관의 22종류 로봇에서 수집한 데이터를 통합하여 학습된 모델이다.31 이 모델은 특정 로봇의 기구학적 특성에 얽매이지 않고, “물체를 집는다“는 행위의 본질적인 패턴을 학습한다. 놀랍게도, RT-X는 학습 데이터에 포함되지 않은 새로운 로봇 팔에 적용되었을 때도 높은 성공률을 보였으며, 이는 로봇 데이터의 규모의 경제(Economies of Scale)를 실현할 수 있는 가능성을 보여준다.33
4.2 VLA (Vision-Language-Action) 모델
로봇 파운데이션 모델의 또 다른 핵심 축은 언어 모델과의 결합이다. VLA 모델은 시각(Vision) 정보와 자연어(Language) 명령을 입력받아 로봇의 행동(Action)을 출력한다.
- 자연어 프로그래밍 (Software 3.0): 카패시는 이를 “Software 3.0” 또는 “Vibe Coding“이라고 칭하며, 영어가 새로운 프로그래밍 언어가 되는 시대를 예고했다.34 사용자가 “식탁 위의 빨간 컵을 치워줘“라고 말하면, VLA 모델은 이미지 속에서 빨간 컵을 인식하고, ’치운다’는 추상적인 개념을 구체적인 로봇 팔의 궤적으로 변환한다.
- 상식의 전이: 인터넷의 방대한 텍스트 데이터로 학습된 LLM의 상식(Common Sense)이 로봇 제어에 전이된다. 예를 들어, “쓰레기를 버려줘“라는 명령을 받았을 때, 로봇은 사과 껍질은 쓰레기통에, 다 쓴 캔은 재활용 통에 버려야 한다는 것을 별도의 코딩 없이도 이해할 수 있다.35
4.3 선도적 사례: Covariant와 Physical Intelligence
- Covariant RFM-1: 코배리언트의 RFM-1(Robotics Foundation Model 1)은 물류 현장에서 수집한 방대한 비디오와 센서 데이터를 기반으로 구축되었다. 이 모델은 로봇에게 물리학적 추론 능력을 부여하여, 처음 보는 물체의 무게중심을 예측하거나 미끄러운 포장재를 다룰 때 파지력을 조절하는 등 인간 수준의 적응력을 보여준다.37 이는 클라우드 기반의 ’Covariant Brain’을 통해 전 세계 로봇 군집이 학습 내용을 공유하는 집단 지성(Fleet Learning)의 형태로 운영된다.38
- Physical Intelligence π0 (Pi-Zero): Physical Intelligence는 로봇의 행동을 토큰화(Tokenization)하여 처리하는 π0 모델을 공개했다. 이 모델은 텍스트, 이미지, 그리고 로봇의 행동 데이터를 통합적으로 학습하여, 로봇이 빨래를 개거나 테이블을 치우는 것과 같은 복잡한 가사 노동을 수행할 수 있게 한다.30 특히 ‘Action Chunking’ 기술을 통해 긴 호흡의 작업(Long-horizon Tasks)을 효율적으로 수행하며, 텍스트 명령의 미묘한 뉘앙스까지 이해하여 동작에 반영한다.
5. 소프트웨어 2.0 툴체인과 MLOps
소프트웨어 2.0으로의 전환은 로봇 개발 도구 생태계의 급격한 변화를 수반한다. IDE(통합 개발 환경)는 더 이상 코드 편집기가 중심이 아니라, 데이터 시각화 및 관리 도구가 중심이 된다.
5.1 데이터 중심의 디버깅 (Data-Centric Debugging)
소프트웨어 1.0에서는 gdb와 같은 디버거를 사용하여 코드의 실행 흐름을 추적하고 변수 값을 확인했다. 그러나 수백만 개의 파라미터를 가진 신경망 내부를 들여다보는 것은 큰 의미가 없다. 소프트웨어 2.0의 디버깅은 데이터셋의 결함을 찾는 과정이다.40
- 관찰 가능성(Observability) 도구: Foxglove, Rerun.io와 같은 현대적인 도구들은 로봇의 센서 데이터, 내부 상태, 모델의 예측 결과를 타임라인과 3D 공간 상에 시각화하여 보여준다.15 개발자는 이를 통해 모델이 실패한 시점의 데이터를 직관적으로 파악하고, 원인이 데이터 부족인지 라벨링 오류인지 분석한다.
- 쿼리 및 슬라이싱: Scale Nucleus와 같은 도구는 데이터셋을 데이터베이스처럼 다루게 해준다. “비 오는 날 밤에 보행자를 놓친 모든 사례“와 같은 쿼리를 통해 특정 시나리오의 데이터를 추출(Slicing)하고, 해당 시나리오에 대한 모델의 성능을 집중적으로 개선할 수 있다.40
5.2 Robops (Robotics + DevOps)
로봇 소프트웨어의 배포 주기가 빨라짐에 따라, MLOps와 DevOps가 결합된 Robops가 필수적이다.
- CI/CD 파이프라인: 새로운 데이터가 추가되어 모델이 업데이트될 때마다, 자동으로 시뮬레이션 환경에서 수천 가지의 테스트 시나리오를 돌려 회귀(Regression) 테스트를 수행한다.43
- 데이터 버전 관리: 코드뿐만 아니라 데이터셋의 버전(DVC, LakeFS 등)을 관리하여, 특정 모델이 어떤 데이터로 학습되었는지 추적 가능성을 확보해야 한다. 이는 안전 인증 및 규제 준수 측면에서도 매우 중요하다.
6. 도전 과제와 미래 전망
소프트웨어 2.0은 로봇 공학의 혁신을 이끌고 있지만, 여전히 해결해야 할 난제들이 존재한다. 특히 확률적(Probabilistic) 모델인 신경망은 본질적으로 불확실성을 내포하고 있어, 안전성(Safety) 보장이 가장 큰 걸림돌이다.44
6.1 안전성과 해석 가능성 (Safety & Interpretability)
산업용 로봇이나 자율주행차는 99.9%의 정확도로는 충분하지 않다. 단 한 번의 실패가 인명 피해로 이어질 수 있기 때문이다. “블랙박스“인 신경망은 왜 그런 행동을 했는지 설명하지 못하므로, 기존의 기능 안전(Functional Safety, ISO 26262 등) 표준을 적용하기 어렵다.
이에 대한 대안으로 **하이브리드 아키텍처(Hybrid Architecture)**가 주목받고 있다. 고수준의 인지와 추론은 유연한 AI(소프트웨어 2.0)가 담당하되, 최종적인 동작의 안전 범위(속도 제한, 충돌 방지 구역 등)는 검증된 제어 이론(소프트웨어 1.0)으로 강제하는 방식이다.3 NVIDIA의 가드레일(Guardrails) 시스템은 AI 모델의 출력을 실시간으로 모니터링하고, 위험한 명령을 필터링하여 안전성을 확보한다.
6.2 AGI를 향한 여정
안드레이 카패시는 소프트웨어 2.0이 범용 인공지능(AGI)을 향한 필연적인 단계라고 주장한다.1 로봇이 인간처럼 세상을 이해하고 행동하기 위해서는, 인간이 작성한 규칙의 한계를 넘어 데이터로부터 스스로 세상의 법칙을 배워야 하기 때문이다.
미래의 로봇 프로그래밍은 코딩이 아닌 **교육(Teaching)**의 형태가 될 것이다. 로봇 엔지니어는 로봇에게 시범을 보이고(Demonstration), 피드백을 주고(RLHF), 적절한 학습 커리큘럼을 설계하는 ’로봇 교사’의 역할을 수행하게 될 것이다. 이는 로봇 기술의 민주화를 가속화하여, 전문 프로그래머가 아닌 일반인도 자신만의 로봇을 학습시키고 활용하는 시대를 열 것이다.
6.3 결론
“소프트웨어 2.0: 로봇 프로그래밍의 재정의“는 단순한 개발 방법론의 변화가 아니다. 이는 로봇을 결정론적 기계(Deterministic Machine)에서 확률론적 학습체(Probabilistic Learner)로 재정의하는 철학적 전환이다.
- 코드는 데이터로 대체되고, **컴파일은 최적화(학습)**로 대체된다.
- 로봇 시스템의 성능은 알고리즘의 우수성이 아닌 데이터 엔진의 효율성에 의해 결정된다.
- 모듈식 구조는 종단간(End-to-End) 신경망으로 통합되며, 파운데이션 모델을 통해 범용성을 획득한다.
독자들은 이제 로봇 시스템을 설계할 때, 어떤 알고리즘을 사용할지 고민하기보다 어떤 데이터를 통해 로봇에게 세상의 지식을 전달할지를 먼저 고민해야 한다. 소프트웨어 2.0은 로봇이 진정한 의미에서 물리적 세계의 지능적 파트너로 거듭나기 위한 핵심 열쇠이다.
7. 참고 자료
- Software 2.0 - Andrej Karpathy – Medium, https://karpathy.medium.com/software-2-0-a64152b37c35
- Software 2.0: AI-Driven Innovation in Custom Development - Bacancy Technology, https://www.bacancytechnology.com/blog/software-2.0
- Classical Robotics vs. End-to-End Learning - blogs.dal.ca, https://blogs.dal.ca/openthink/classical-robotics-vs-end-to-end-learning/
- End-to-End Learning for a Low-Cost Robotics Arm - Scholarship Repository @ Florida Tech, https://repository.fit.edu/cgi/viewcontent.cgi?article=2546&context=etd
- Key Features That Define High-Performance AI Robotics Software - OSnews, https://www.osnews.com/story/143394/key-features-that-define-high-performance-ai-robotics-software/
- Overcoming the Curse of Dimensionality in Reinforcement Learning Through Approximate Factorization - arXiv, https://arxiv.org/html/2411.07591v1
- Why Your AI Agent Can’t Think Fast Enough (And How PCA Fixes It) - Medium, https://medium.com/@jsmith0475/why-your-ai-agent-cant-think-fast-enough-and-how-pca-fixes-it-aa4dc00bbbff
- Deep Learning in Robotics: A Review of Recent Research Harry A. Pierson (corresponding author) - arXiv, https://arxiv.org/pdf/1707.07217
- Searching Latent Program Spaces - arXiv, https://arxiv.org/html/2411.08706v2
- What The Potential Of Software 2.0 Means For Tech Leaders - Forbes, https://www.forbes.com/councils/forbestechcouncil/2023/04/20/what-the-potential-of-software-20-means-for-tech-leaders/
- Autonomy 2.0: The Quest for Economies of Scale - Communications of the ACM, https://cacm.acm.org/opinion/autonomy-2-0-the-quest-for-economies-of-scale/
- A visual deep dive into Tesla’s Data Engine pioneered by Andrej Karpathy. - Reddit, https://www.reddit.com/r/TeslaLounge/comments/1cach3k/a_visual_deep_dive_into_teslas_data_engine/
- Data flywheel: What it is and how it works | NVIDIA Glossary, https://www.nvidia.com/en-us/glossary/data-flywheel/
- The Data Flywheel Effect in GenAI: The Hidden Engine Behind Smarter AI - Medium, https://medium.com/@paushi213/the-data-flywheel-effect-in-genai-the-hidden-engine-behind-smarter-ai-181ad6471d94
- Comparing Data Management Tools for Robotics - DEV Community, https://dev.to/reductstore/comparing-data-management-tools-for-robotics-5a61
- AI & Robotics | Tesla, https://www.tesla.com/AI
- Software 2.0 and Data Programming: Lessons Learned, and What’s Next - Hazy Research, https://hazyresearch.stanford.edu/software2
- Software Tools For Robotics Landscape (2024) - Segments.ai, https://segments.ai/blog/software-tools-for-robotics-landscape/
- Covariant AI: A Deep Dive into the Future of Robotic Automation, https://skywork.ai/skypage/en/Covariant%20AI%3A%20A%20Deep%20Dive%20into%20the%20Future%20of%20Robotic%20Automation/1976506268149018624
- Simulation-based pipeline tailors training data for dexterous robots | MIT CSAIL, https://www.csail.mit.edu/news/simulation-based-pipeline-tailors-training-data-dexterous-robots
- Genesis: A Generative and Universal Physics Engine for Robotics and Beyond, https://genesis-embodied-ai.github.io/
- NVIDIA Cosmos - Physical AI with World Foundation Models, https://www.nvidia.com/en-us/ai/cosmos/
- How Tesla uses neural network at scale in production | Phuc Nguyen, https://phucnsp.github.io/blog/self-taught/2020/04/30/tesla-nn-in-production.html
- A Complete Review Of Tesla’s Optimus Robot - Brian D. Colwell, https://briandcolwell.com/a-complete-review-of-teslas-optimus-robot/
- Tesla Optimus Robot: Engineering Breakdown and Real-World Applications, https://thinkrobotics.com/blogs/indepths/tesla-optimus-robot-engineering-breakdown-and-real-world-applications
- Science and Engineering for Learned Robots | Eric Jang, https://evjang.com/2021/03/14/learning-robots.html
- End-to-end Autonomous Driving: Challenges and Frontiers - arXiv, https://arxiv.org/html/2306.16927v3
- AI-Driven Sensing Technology: Review - MDPI, https://www.mdpi.com/1424-8220/24/10/2958
- How sensor fusion in robotics drives intelligent automation - N-iX, https://www.n-ix.com/sensor-fusion-in-robotics/
- FAST: Efficient Robot Action Tokenization - Physical Intelligence, https://www.physicalintelligence.company/research/fast
- Open X-Embodiment: Robotic Learning Datasets and RT-X Models, https://robotics-transformer-x.github.io/
- [2310.08864] Open X-Embodiment: Robotic Learning Datasets and RT-X Models - arXiv, https://arxiv.org/abs/2310.08864
- Scaling up learning across many different robot types - Google DeepMind, https://deepmind.google/blog/scaling-up-learning-across-many-different-robot-types/
- Andrej Karpathy: Software Is Changing (Again) - YouTube, https://www.youtube.com/watch?v=LCEmiRjPEtQ
- The Future of Robotics: Robotics Foundation Models and the role of data - Covariant, https://covariant.ai/insights/the-future-of-robotics-robotics-foundation-models-and-the-role-of-data/
- A VLA with Open-World Generalization - Physical Intelligence, https://www.physicalintelligence.company/blog/pi05
- Covariant introduces RFM-1 to give robots the human-like ability to reason, https://covariant.ai/covariant-introduces-rfm-1-to-give-robots-the-human-like-ability-to-reason/
- Brain - Covariant, https://covariant.ai/covariant-brain/
- Physical Intelligence (π), https://www.pi.website/
- Top 6 Data Curation Tools & Platforms for Computer Vision - Averroes AI, https://averroes.ai/blog/blog-top-data-curation-tools
- Test and Debug Your Robot - Robotics Knowledgebase, https://roboticsknowledgebase.com/wiki/robotics-project-guide/test-and-debug/
- The Platform Helping Robotics Teams Visualize and Debug Robots | Foxglove - YouTube, https://www.youtube.com/watch?v=mVROOTTertg
- Software Development Workflow in Robotics - mediaTUM, https://mediatum.ub.tum.de/doc/1289090/372388.pdf
- Software 2.0 – A Paradigm Shift - Robosoft Technologies, https://www.robosoftin.com/blog/software-2-0-a-paradigm-shift